强化学习

2.1 强化学习

2.1.1 强化学习的基本原理

 

2.1.2 强化学习的三对概念

 

2.1.3 强化学习的具体分类(略)

这部分可略去不看.

 

2.2 动态规划

2.2.1 思路介绍

我们想要求解强化学习模型(即马尔科夫决策过程)的最优策略,可以循环进行策略评估与策略提升:

反复进行上述过程,直到策略稳定为最优策略. 该思路称为广义策略迭代.

动态规划、蒙特卡洛、时序差分,都属于广义策略迭代,其中动态规划需要知道模型的参数(如回报函数与状态转移概率矩阵),蒙特卡洛与时序差分则无需模型参数.

动态规划(DP,dynamic planning)分为策略迭代和价值迭代两种算法.

 

2.2.2 策略迭代

1 策略评估

在马尔科夫决策过程中,我们得到了贝尔曼期望方程,

vπ(s)=aAπ(as)(Rsa+γsSPssavπ(s)),qπ(s,a)=Rsa+γsSPssaaAπ(as)qπ(s,a).

我们可以直接联立方程去求解,但是这样做计算量很大,实际应用不便.

另一种思路是,利用上述方程自举求得近似值,逐渐逼近精确值:

vπ(k+1)(s)=aAπ(as)(Rsa+γsSPssavπ(k)(s)),qπ(k+1)(s,a)=Rsa+γsSPssaaAπ(as)qπ(k)(s,a).

实际应用中只需求解行为值函数. 如果采取任一行为后状态的转移是确定的, 而非随机的, 则可以不求解行为值函数, 而转为求解状态值函数.

2 策略改进

记改进前的策略为 πn, 则改进后的策略为 πn+1(s)argmaxaQπn(s,a).

 

2.2.3 价值迭代

1 算法介绍

利用贝尔曼最优方程自举,

Vk+1(s)=maxaA(Rsa+γsSPssaVk(s)),

求出最优值函数后, 贪心策略即为最优策略.

2 算法优势

策略迭代中,每次迭代都要通过自举进行策略评估;而价值迭代,只需要自举求得最优值函数. 因此一般来说,价值迭代的计算量更小.

 

2.3 蒙特卡洛

2.3.1 蒙特卡洛思路介绍

动态规划在策略评估时,需要知道模型的全部参数(状态转移概率矩阵与回报函数),但实际情景中不一定可知,即使可知,也可能十分复杂. 因此我们通过采样数据去估计值函数,该思路称为蒙特卡洛方法(MC,Monte-Carlo).

 

2.3.2 在线策略蒙特卡洛

1 蒙特卡洛评估
2 蒙特卡洛控制

由于采样数据是有限的,不一定能反映全局的最优解,因此我们使用 ε-贪心探索,即

换言之,若一共有 m 个行为, 有且仅有一个最优行为, 那么

3 在线/离线策略

首先引入概念:

上述蒙特卡洛方法中,行为策略与原始策略相同,都是 ε-贪心策略,称为 在线策略蒙特卡洛.

但是最终我们想得到的,是一个确定性的而非随机性的策略,因此希望通过 ε-贪心策略获取更丰富的采样数据,通过贪心策略得到整体回报,那么最终我们得到的策略(贪心策略)就是确定性的了.

像这样在线策略与原始策略不同的蒙特卡洛方法,称为 离线策略蒙特卡洛,也就是下一小节中所要探讨的.

 

2.3.3 离线策略蒙特卡洛(略)

可以跳过本节不看.

1 重要性采样方法

 

2 加权重要性采样

为减小方差,

E^[f(x)]=i=1mp(xi)q(xi)f(xi)i=1mp(xi)q(xi),Q(s,a)=i=1mρiTGii=1mρiT,Qm(s,a)=ρmTGm+Qm1(s,a)i=1m1ρiTi=1mρiT=Qm1(s,a)+ρmTi=1mρiT(GmQm1(s,a)).

 

2.4 时序差分

2.4.1 时序差分思路介绍

1 时序差分简介

在蒙特卡洛方法中,每次采样都需要得到完整的轨迹,只有这样才能计算出整体回报 Gt,从而估计值函数 Vπ(St)=Eπ[GtSt=s].

而由贝尔曼期望方程,Vπ(St)=Eπ[Rt+1+γV(St+1)St=s],状态值函数 Vπ(St) 不仅是整体回报 Gt 的条件期望,还是 Rt+1+γV(St+1) 的期望,因此我们可以采样算出其均值,以估计值函数.

这么做的好处是,只需要一部分的轨迹,从而缩短了采样的时间,从而更快地估计值函数.

这个思路称为时序差分(TD, Temporal Difference),其中替代 GtRt+1+γV(St+1) 称为 TD 目标值,它的条件期望就是状态值函数,它与状态值函数之差 δt=Rt+1+γV(St+1)V(st) 称为 TD 误差.

时序差分与蒙特卡洛都是无模型方法,同样分为在线策略(如 Sarsa)与离线策略(如 Q-Learning)两种.

 

2 三种算法对比(略)

三种算法都遵循广义策略迭代框架.

 

2.4.2 在线策略时序差分:Sarsa

Q(S,A)Q(S,A)+α(R+γQ(S,A)Q(S,A)).

其中行为 A 由行为策略得到,行为 A 由目标策略得到.

这里的行为策略与目标策略均为 ε-贪心策略.

 

2.4.3 离线策略时序差分:Q-Learning

1 离线策略 TD(略)

 

2 Q-learning
Q(St,At)Q(St,At)+α(Rt+1+γQ(St+1,A)Q(St,At)).